iT邦幫忙

2025 iThome 鐵人賽

DAY 3
0
AI & Data

AI 江湖本無路,有了 Data 便有了路系列 第 3

Day 03: 萬丈高樓平地起:Database、資料倉儲與資料湖的三角對決

  • 分享至 

  • xImage
  •  

前言:數據的安身之所

確立了心法,也認識了江湖中的各路英雄,接下來我們要為寶貴的數據尋找一個安身之所。儲存數據的地方,我們統稱為「資料庫」,但隨著數據的種類和應用越來越多樣,光用「資料庫」一個詞已經不足以描述全貌。

今天,我們來拆解三個最關鍵的數據儲存架構:傳統資料庫 (Database)、資料倉儲 (Data Warehouse) 與資料湖 (Data Lake)。這三者不是互相取代,而是為了解決不同問題而生,尤其在 AI 時代,它們更是各司其職,共同支撐著複雜的 AI 應用。


三大數據容器的對決

特性 傳統資料庫 (Database) 資料倉儲 (Data Warehouse) 資料湖 (Data Lake)
主要用途 線上交易處理 (OLTP) 商業智慧分析 (BI) AI 模型訓練、探索性分析
資料類型 結構化資料 結構化、已清理的資料 各種類型 (結構化、非結構化)
資料結構 Schema-on-Write (寫入前定義) Schema-on-Write (寫入前定義) Schema-on-Read (讀取時定義)
使用者 應用程式、開發者 資料分析師、業務人員 資料科學家、資料工程師
AI 應用情境 儲存電商訂單、會員資料 彙整銷售報表,分析顧客輪廓 儲存用戶評論(文字)、商品圖片

Schema-on-Write vs. Schema-on-Read

這是理解三者差異最核心的概念:

  • Schema-on-Write (寫入前定義結構): 就像你要填一份制式表格(例如報稅單),每一格要填什麼、格式是什麼(文字、數字)都規定得死死的。不符合格式的資料,會被拒絕寫入。
    • 優點: 資料乾淨、品質高、查詢速度快。
    • 代表: 傳統資料庫、資料倉儲。
  • Schema-on-Read (讀取時定義結構): 就像一個巨大的雜物箱,你可以先把各種東西(文字、圖片、影片、聲音檔)都先丟進去。等到要找東西時,再自己決定要怎麼解讀這些東西。
    • 優點: 彈性極高,可以儲存任何類型的原始資料,不會遺失任何細節。
    • 代表: 資料湖。

https://ithelp.ithome.com.tw/upload/images/20250915/20112423bKwR8K5k4b.png


AI 時代為何三者缺一不可?

讓我們回到「智慧推薦系統」的例子:

  1. 你的每一筆訂單,都即時地寫入傳統資料庫 (Database),確保交易正確無誤。
  2. 每天晚上,資料工程師會將各個資料庫的訂單、會員資料進行清理、整合,放入資料倉儲 (Data Warehouse),供分析師製作隔天的銷售報表,監控業績。
  3. 同時,你留下的**商品評論 (文字)、點擊過的商品圖片 (影像) **等非結構化資料,會被完整地存放在資料湖 (Data Lake)。資料科學家需要這些最原始、最完整的資料,來訓練一個能理解文字語意和圖片風格的深度學習推薦模型。

如果沒有資料湖,AI 模型就失去了最豐富的養分。如果沒有資料倉儲,企業的日常營運分析將寸步難行。如果沒有傳統資料庫,整個交易系統都會崩潰。

結論

選擇哪種儲存架構,取決於你的應用情境。萬丈高樓平地起,為你的數據選擇合適的家,是建構強大 AI 應用的第一步。下一階段我們會談到,如何融合兩者優點的現代架構 — Data Lakehouse。


上一篇
Day 02: 資料英雄的崛起:資料科學家、分析師與工程師的三角關係
系列文
AI 江湖本無路,有了 Data 便有了路3
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言